\chapter{多模态融合学习的问题定义}\label{chap:definition}

在本章，我们给出多模态融合学习问题的定义，介绍多模态任务的数据来源和其使用多模态融合学习的下游任务场景。

\section{多模态融合学习的定义}\label{sec:definition}

多模态融合学习由``多模态''、``融合''和``学习''三个词构成，因此该问题有以下三个特点：

\begin{enumerate}
    \item 在该任务中，存在\textbf{多种不同模态的输入}。常见的模态例如图像模态、
    文本模态、音频模态、视频模态、用户画像模态等。
    \item 该任务需要\textbf{融合来源于不同模态的数据}。
    虽然存在多种不同模态，模型需要将多种不同模态统一表示，
    使模态之间可以互相关联。
    \item 模型利用多模态数据，\textbf{学习模态间的关联和统一表示}，
    从而可以使用学习到的多模态表示完成多种下游任务。
\end{enumerate}

\section{多模态融合学习任务的数据来源}

多模态融合学习任务的数据必定有至少两个模态。多模态学习任务常见的数据来源如下：

\begin{itemize}
    \item \textbf{图像-标签数据}是最常见的一种多模态数据来源。
    深度神经网络大放异彩的ImageNet任务就是一种典型的图像-标签数据。
    在该任务中，图像属于视觉模态，标签一般会被作为文本模态。
    由于文本模态大多为完整的句子，所以将标签作为文本模态时，
    常会将标签转换为句子(例如标签``Bird''会转换成``There is a bird in the picture.'')，
    尤其是训练或者测试包含多种来源不同的数据集的时候。
    \item \textbf{图像-文本数据}是最常用的多模态数据之一。
    相比图像-标签数据，该数据使用一句或多句句子来描述图片内容。
    该数据和图像-标签数据相比的明显优势在于不一定需要人工标注，
    从而可以通过互联网大规模收集，获取海量数据。例如通过Google等搜索引擎或是Tumblr等社交网站的搜索和热点功能，
    可以快速收集到大量具有相关性的图像-文本数据对。
    \item \textbf{视频-文本数据}是近年来快速增长的多模态数据类型。
    随着视频网站，尤其是短视频的兴起，用户创造了大量视频。
    视频包含视频标题和视频内容，同样构成了多模态数据。
    \item \textbf{视频-音频数据}也属于一种多模态数据。
    在使用这种类型的数据时，常常会使用语音识别技术将音频转换为文本模态再加以利用。
    但是音频也包含音乐、情感等独特的信息，也是一种独特的模态。
    \item \textbf{更多模态混合的数据。}除了上述提到的几种主流的多模态数据，
    还有更多包含多种模态的数据。例如一个视频包含视频、标签、标题文本、语音、
    发布者用户画像等大量模态可以利用，一篇博客也会包含图像、文本、标题、标签、
    评论、作者画像等模态。
\end{itemize}

在各种模态中，由于视觉模态(图像，视频)-文本模态(文字，标签，语音识别)的多模态数据是最常见、
丰富的，目前的多模态融合学习方法研究的也以这两个模态为主。

\section{多模态融合学习任务的下游任务场景}

多模态融合学习是十分重要的研究方向，具有许多重要下游应用场景。
本节给出了多模态融合学习最常见的一些下游应用任务。

\begin{itemize}
    \item \textbf{多模态召回任务。}该任务是一个典型的跨模态任务，
    任务目标是给出多模态数据的其中一个模态，要求模型从大量另一模态的数据中召回和自己对应的数据。
    该任务最常见于跨模态搜索、跨模态推荐等实际场景。
    \item \textbf{图像标注任务。}该任务是一种跨模态生成任务。
    给定视觉模态数据，模型需要生成一段文字来描述该数据。
    \item \textbf{图像识别任务。}该任务是非常常见的任务之一，模型需要识别图像中的物体名称。
    图像分类也和该任务类似，需要识别某个图像属于哪一类。
    \item \textbf{视觉问题回答(Visual Question Answering)。}该任务会同时输入两个模态的数据——
    图像和问题，并要求模型回答正确的答案。该任务在智能对话机器人中应用广泛。
    \item \textbf{多语言任务。}在文本模态，可能包含不同国家语言的文本，它们也类似于多个模态的数据。
    在多语言任务中常见的有机器翻译、知识图谱迁移等场景。
\end{itemize}
